پیکره اعلام: یک پیکره استاندارد واحدهای اسمی برای زبان فارسی

Authors

امامی آزادی, طاهره پژوهشگاه توسعه فناوری‌های پیشرفته خواجه نصیرالدین طوسی

حسین‌نژاد, شادی پژوهشگاه توسعه فناوری‌های پیشرفته خواجه نصیرالدین طوسی

شکفته, یاسر دانشکده مهندسی و علوم کامپیوتر، دانشگاه شهید بهشتی

Abstract:

Named entity recognition (NER) is a natural language processing (NLP) problem that is mainly used for text summarization, data mining, data retrieval, question and answering, machine translation, and document classification systems. A NER system is tasked with determining the border of each named entity, recognizing its type and classifying it into predefined categories. The categories of named entities include the names of persons, organizations, locations (e.g. city and country), expressions of times, quantities, monetary expressions, and percentages. In general, corpus-based NER approaches have been proved to be well suited for NER problem. Using a NER corpus, recognition of named entities can be done through ruled-based or machine-learning methods. Corpus-based NER systems need standard and appropriate annotated corpora. However, such corpora mainly exist in languages such as English, and are rarely found in Persian/Farsi or limited in volume. So, this paper is dedicated to describe the producing procedure of a standard named entity (NE) corpus - A’laam corpus - for Persian language. A’laam corpus contains about 250,000 tokens tagged with 13 NE tags. This corpus has been developed in the Research Center for Development of Advanced Technologies (RCDAT). Tokens of A’laam corpus are a part of Farsi Text Corpus. The Farsi Text Corpus is a standard Farsi corpus. This corpus, containing more than 100 million Farsi words, has been developed by the Research Center of Intelligent Signal Processing (changed to the Research Center for Development of Advanced Technologies in 2013). The words of this corpus, selected from diverse written and spoken sources, was tokenized and corrected manually. In addition, a part of the Farsi Text Corpus with 8 million words has part-of-speech (POS) tags at word level. Totally, about 8,400 sentences of the Farsi Text Corpus have been randomly selected to obtain about 250,000 tokens of A’laam Corpus. This corpus included words, POS tags, and named entity tags. To evaluate A’laam corpus, a Persian NER system was trained based on this corpus. This corpus was so divided into the train and test sections. The train section accounted for 90% of the corpus and the remaining 10% belonged to the test section. Using Conditional Random Fields (CRF) method, the Persian NER system resulted in a 92.94% Precision and 78.48% Recall.

Download for Free

Already have an account?login

similar resources

دوگان سازی کامل در زبان فارسی: بررسی پیکره بنیاد

فرایند تکرار یکی از فرایند های صرفی زایا ست که درباره ی آن در زبانهای مختلف و در چهار چوب نظریات مختلف زبانشناختی (دستور زایشی ، نظریه بهینگی و برنامه کمینگی ) مطالعات جامعی صورت گرفته است.اکنون با رشد زبانشناسی پیکره ای و مطالعات پیکره بنیاد می توان پژوهش های صرفی از این دست را دقیق تر به سامان رساند. تکرار در دونوع کامل و ناقص از سوی زبانشناسان (شقاقی 1389، هسپلمت 2002 و بائر 2003) بررسی شده ...

full text

کاربرد پیکره های‌ متنی در آموزش زبان آلمانی

در یادگیری زبان بیگانه، زبان‌آموز همواره با چالش‌های مختلفی دست و پنجه نرم می‌کند و بندرت قادر است بدون یاری‌گرفتن از افراد صاحب‌نظر پیشرفت قابل‌توجهی در مهارت‌های زبانی کسب کند. مقاله پیش‌رو با درنظرگرفتن همین محدودیت، به معرفی پیکره‌ها‌ی‌زبانی و چگونگی استفاده از آنها در امر آموزش زبان می‌پردازد. پیکره‌متنی امروزه به مجموعه‌ای از متون گفتاری و نوشتاری دیجیتالی‌شده گفته می‌شود که از نمونه‌های ...

full text

ترکیب فعلی: فرایندی صرفی یا نحوی؟ یک بررسی پیکره بنیاد

مقاله حاضر با مطالعه ترکیب‌ فعلی زبان فارسی تلاش دارد تا فرایند دخیل در ساخت این مقوله زایا را روشن سازد. ترکیب فعلی از انضمام سازه‌های موضوع، افزوده، صفت و یا گروه نحوی با ستاک فعل تشکیل می‌شود و هسته نحوی این ساخت بر‌گرفته از فعل است. مقایسه پیکره ترکیب فعلی (8481) با داده‌های ترکیب غیر‌فعلی رساله خباز (1385) که بالغ بر 3974 مورد است و هر دو از فرهنگ بزرگ سخن انوری (1386) استخراج شده‌اند نشان...

full text

طراحی و ایجاد پیکره ی تولیدی زبان آموز فارسی

با استفاده از نتایج حاصل از بررسی های صورت گرفته بر روی پیکره ی تولیدی زبان آموز می توان به تهیه ی برنامه ی درسی و تدوین محتوای آموزشی مناسب و هدفمند اقدام نمود. به همین منظور در این پژوهش تلاش شد، ضمن بررسی پیشینه و اهمیت به کار گیری پیکره های تولیدی زبان آموز در امر آموزش، نخستین پیکره ی تولیدی زبان آموز فارسی طراحی و ایجاد شود.

نقد کتاب کاربرد پیکره در تحلیل گفتمان

چکیده کاربرد پیکره در تحلیل گفتمان نوشتۀ پاول بیکر (2006) توسط انتشارات کانتینیوم (لندن و نیویورک) در 207 صفحه منتشر شده است. کتاب بر دو موضوع اصلی و ایجاد ارتباط بین آن‌ها متمرکز است: تحلیل گفتمان و زبانشناسی پیکرهای. تحلیل گفتمان که ماهیتی میانرشتهای دارد، در سالهای اخیر مورد توجه بسیاری از زبانشناسان به‌ویژه پژوهشگران علاقهمند به مباحث جامعهشناسی زبان بوده است. پیکره زبانی مجموعهای...

full text

استعاره های مفهومی در زبان فارسی؛ تحلیلی شناختی و پیکره مدار

پژوهش حاضر به بررسی استعاره های مفهومی در پیکره ای نمونه از زبان فارسی می پردازد. در این پژوهش تلاش شده است تا با بهره گیری از پایگاه داده های زبان فارسی، پیکره ای از متون نوشتاری زبان فارسی معاصر که شباهت بیشتری به زبان روزمره سخنوران دارد، نمونه گیری و استعاره های مفهومی نهفته در آن استخراج گردد. سپس این استعاره ها براساس طبقه بندی لیکاف و جانسون johnson, 1980) & (lakoff ، در قالب استعاره های...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

Journal title

پردازش علائم و داده ها

volume 14 issue 3

pages 127- 142

publication date 2017-12

unfollow

{@ msg @}

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com